智能论文笔记

洪水是大自然最灾难性的灾难之一，对人类生活，农业，基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度，有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险，并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归，K-Nearest邻居（KNN），支持向量分类器（SVC）和决策树分类器来提供准确的预测。通过结果，将进行比较分析，以了解哪种模型具有更好的准确性。

translated by 谷歌翻译

FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents

Bolun "Namir" Xia , Vipula D. Rawte , Mohammed J. Zaki , Aparna Gupta

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-14

非结构化数据，尤其是文本，在各个领域继续迅速增长。特别是，在金融领域，有大量累积的非结构化财务数据，例如公司定期向监管机构提交的文本披露文件，例如证券和交易委员会（SEC）。这些文档通常很长，并且倾向于包含有关公司绩效的宝贵信息。因此，从这些长文本文档中学习预测模型是非常兴趣的，尤其是用于预测数值关键绩效指标（KPI）。尽管在训练有素的语言模型（LMS）中取得了长足的进步，这些模型从大量的文本数据中学习，但他们仍然在有效的长期文档表示方面挣扎。我们的工作满足了这种批判性需求，即如何开发更好的模型来从长文本文档中提取有用的信息，并学习有效的功能，这些功能可以利用软件财务和风险信息来进行文本回归（预测）任务。在本文中，我们提出并实施了一个深度学习框架，该框架将长文档分为大块，并利用预先训练的LMS处理和将块汇总为矢量表示，然后进行自我关注以提取有价值的文档级特征。我们根据美国银行的10-K公共披露报告以及美国公司提交的另一个报告数据集评估了模型。总体而言，我们的框架优于文本建模的强大基线方法以及仅使用数值数据的基线回归模型。我们的工作提供了更好的见解，即如何利用预先训练的域特异性和微调的长输入LMS来表示长文档可以提高文本数据的表示质量，从而有助于改善预测分析。

translated by 谷歌翻译